طبقه بند چندکلاسی مقیاس پذیرمبتنی بر پیچیدگی داده ها

پایان نامه
چکیده

در این رساله، برای طراحی طبقه بند چندکلاسی تعمیم پذیر مقیاس پذیر، بُعد vc در نظر گرفته شده است. این بُعد، ظرفیت مجموعه ای از توابع طبقه بندی را اندازه گیری می کند و در الگوریتم های یادگیری، خطای تعمیم پذیری وابسته به آن می باشد. وجود گستردگی در استفاده از طبقه بند چندکلاسی در کاربردهای جهان حقیقی از یک سو و تعداد زیاد کلاس های این گونه کاربردها از سوی دیگر، سبب شده تا نتوان از طبقه بند ماشین تکی استفاده نمود، زیرا که در طبقه بند ماشین فوق، تمام ابرصفحه های بین کلاس ها با هم به دست می آید. در این گونه روش ها با بهینه سازی مسأله ای بسیار بزرگ و پیچیده مواجهیم که حل آن بسیار زمان بر و بعضاً غیرممکن است. بنابراین، برای حل این گونه از مسائل، از روش های تجزیه استفاده می شود. در این رساله، با بهره گرفتن از مفهوم پیچیدگی داده ها (به عنوان یک عنصر کم تر استفاده شده در تحقیقات گذشته طبقه بند چندکلاسی)، مسأله دنبال شده است تا تعمیم پذیری طبقه-بندهای چندکلاسی مبتنی بر روش های تجزیه بهبود یابد. پیچیدگی داده ها جهت خوشه بندی کلاس ها و تعیین ساختاری مناسب برای طبقه بند بکار رفته، به نحوی که مقدار هزینه برای تابع هدف حداقل و در نتیجه خطای تعمیم پذیری کم شود. بعد از تعیین ساختار مناسب برای طبقه بند (با توجه به ویژگی های مناسب)، صرفاً طبقه بندهای باینری ماشین بردار پشتیبان جهت اخذ نتیجه استفاده گردیده است. در انتخاب روش های طبقه بندی مبتنی بر تجزیه نیز باید توجه نمود که در روش های تجزیه: 1- یکی در برابر دیگری، 2-یکی در برابر بقیه، با مشکلاتی مواجه ایم، در مورد اول، تعداد طبقه بند پایه با تعداد کلاس رشد فزاینده ای دارد و در روش دوم با مشکل عدم موازنه داده ها مواجه ایم. استراتژی تجزیه ای که مشکلات فوق را تا حدی حل می نماید، استراتژی درختی است، اما کماکان مسأله مهم در این جا، چگونگی ساخت درخت است. در استراتژی درختی، روش ماشین بردار پشتیبان با روش درختی ترکیب شده، بدین معنی که حل مسأله از دو قسمت یادگیری بدون ناظر و یادگیری باناظر تشکیل می شود. بخش اول که یادگیری بدون ناظر است، درختی سلسله مراتبی از کلاس ها ساخته می شود که هر کدام از کلاس ها در برگ های درخت قرار می گیرد، در بخش دوم، برای هر گره، طبقه بندی باینری آموزش داده می شود. نهایتاً، دو قسمت مذکور با هم، ساختار طبقه بند چندکلاسی را تشکیل می دهد. در این رساله، تمرکز اصلی بر روی بخش بدون ناظر (بهینه سازی ساختار طبقه بند مورد نیاز برای طبقه بند چندکلاسی) می باشد. بنابراین آنچه که در این رساله دنبال خواهد شد، ارائه روشی است که کاربرد آن در بعضی از روش های متعارف، باعث بهبود کارایی می شود. برای بیان ایده، ابتدا ارتباط بین پیچیدگی داده ها، پیچیدگی مدل و بُعد fat-shattering را مورد بررسی قرار می دهیم، سپس سنجه های مختلف موجود برای اندازه گیری پیچیدگی داده ها بررسی می شوند. در این راستا بدنبال کمیتی متناسب با نوع طبقه بند به کار برده شده هستیم. در ادامه، به کمک سنجه مشخص شده برای پیچیدگی داده ها، ساختار مناسبی را برای طبقه بند تعیین و در انتها ثابت می کنیم که طبقه بند پیشنهادشده دارای حداقل بُعد fat-shattering و در نتیجه دارای تعمیم پذیری خوبی است. در انتها، از مجموعه داده های استانداردی نظیر پایگاه های داده ا ی uci، satlog و هم چنین از مجموعه داده ی ایستگاه هوایی برای ارزیابی روش ها استفاده شده است، نتایج حاصل از آزمایش ها، برتری روش پیشنهادی را بر سایر روش ها بیان می کند.

منابع مشابه

پشنهادی دو طبقه بند ی تقابل معنایی در زبازفارسی

تقابل معنایی از جمله روابط معنای در حوزهمعنی شناسی محسوب می شود. در این مقاله پس از مروری بر آثار عمده پیثین که به توصیف و طبقه بندی آن پرداخته اند، پیشنهادی برای طبقه بندی این رابطه معنایی در زبان فارسی ارائه شده است. تقابل معنایی تحت دو عنوان کلی تقابل دوتایی و تقابل غیر دوتایی دسته بندی ثده که هر یک دارای زیربخش های متفاوتی است. تقابل دوتایی دربرگیرنده، تنها یک جفت متقابل است در حالی که تقاب...

متن کامل

مقایسه ی الگوریتم های مختلف طبقه بندی داده ها برای تعیین نوع زردی در نوزادان

Background and Aim: Neonatal jaundice is a matter that is very important for clinicians all over the world because this disease is one of the most common cases that requires clinical care. The aim of this study is to use data classification algorithms to predict the type of jaundice in neonates, and therefore, to prevent irreparable damages in future. Materials and Methods: This is a descripti...

متن کامل

ارائه مدلی برای طبقه بندی تولیدات دانشی بر اساس داده ها و فرایند های پردازش داده ها

جهانی شدن اقتصاد، افزایش رقابت، پویایی و تلاطم محیطی باعث شده است که تولیدات دانشی بخش عمد ه ای از تولیدات سازمان های امروز را تشکیل دهد. برنامه ریزی برای این نوع تولیدات، به دلیل ناملموس بودن آن دشوار است. طبقه بندی تولید منجر به شناخت بهتر هر طبقه و سهولت برنامه ریزی و تصمیم گیری می شود. در این مقاله، مدلی برای طبقه بندی تولیدات دانشی ارائه می شود. به این منظور، فرایند تولید دانش در مشاغل دا...

متن کامل

تخصیص منصفانه هزینه ثابت داده های مقیاس بازه ای و مقیاس کسری بین واحد های تصمیم گیرنده در تحلیل پوششی داده ها

In recent years, fair allocation of resources or fixed costs in DEA have been noticed by researches, in which the main objective is unchanging efficiency of decision making units, In which the main purpose is to not change the efficiency of decision-making units before and after the allocation of costs. On the other hand, all studies have been due to the fraction-scale data, and any special att...

متن کامل

تحلیل صدای گریه نوزاد با استفاده از طبقه بند بازنمایی تنک مبتنی بر هسته

پردازش صدای گریه نوزاد اطلاعات مفیدی در مورد وضعیت نوزاد در اختیار قرار ­می­دهد. این اطلاعات می­تواند به منظور تشخیص بیماری و یا درک نیاز نوزاد استفاده شود. این مقاله به تحلیل صدای گریه نوزاد با روی‌کرد تفکیک دو نوع منشاء درد و گرسنگی در صدای گریه پرداخته است. الگوهای بازنمایی تنک علامت (سیگنال) یکی از جدیدترین ابزار­های پردازش در حوزه بازشناسی الگو است. از این‌­رو، در مقاله جاری چارچوبی جدید ب...

متن کامل

طبقه بند فیشر چگالی گرا

مشکلات موجود در طبقه بند جداساز خطی (lda) از قبیل حساسیت به داده های پرت، فرض اولیه تک مدی بودن توزیع کلاس ها و معکوس ناپذیری ماتریس پراکندگی داخل کلاس انگیزه ای برای ارائه طبقه بندی جدید در این طرح شد. البته در تحقیقات گذشته راهکارهایی همچون استفاده از گراف همسایگی، استفاده از نرم یک و وزنی نمودن طبقه بند برای کاهش حساسیت به داده های پرت، روش هایی مانند کاهش ابعاد، بکارگیری پارامتر تنظیم ساز و...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023